Classification Automatique Non supervisée de Documents Textuels basés sur Wordnet
نویسندگان
چکیده
Mettre en œuvre l’une des méthodes de classification non supervisée consiste en premier lieu à choisir une manière de représenter les documents (Sebastiani, 2002) ; dans un second temps il faut choisir une mesure de similarité, et en dernier lieu choisir un algorithme de classification que l'on va mettre au point à partir des descripteurs et de la métrique choisis. Tout document dj sera transformé en un vecteur de poids wkj des termes tk. La majorité des méthodes, pour calculer le poids wkj, sont axées sur une représentation vectorielle des textes de type TF-IDF (Sebastiani, 2002), qui attribue un poids d’autant plus fort que le terme apparaît souvent dans le document et rarement dans le corpus complet. Il existe différentes approches pour la représentation des documents. Typiquement, la similarité entre documents est estimée par une fonction calculant la distance entre les vecteurs de ces documents. Plusieurs mesures de similarité ont été proposées (Jones & Furnas, 1987). Parmi ces mesures on peut citer la distance du cosinus. L’algorithme SOM (Kohonen & al, 2000) a été depuis longtemps proposé et appliqué dans le domaine de la classification des documents textuels. Cependant, les combinaisons entre SOM et représentation conceptuelle de textes d’une part, SOM et représentation basée sur les n-grammes d’autre part n’ont pas été beaucoup étudiées.
منابع مشابه
La Classification non Supervisée (Clustering) de Documents Textuels par les Automates Cellulaires
Résumé : Dans cet article nous présentons un automate cellulaire (Class_AC) pour résoudre un problème de text mining en l’occurrence la classification non supervisée (Clustering). Avant de procéder à l’expérimentation par l’automate cellulaire, nous avons vectorisés nos données en procédant à l’indexation des documents textuels provenant de la base de donnée REUTERS 21578 par l’approche Wordnet...
متن کاملFouille de collections de documents en vue d'une caractérisation thématique de connaissances textuelles
Résumé. De nos jours, les entreprises, organismes ou individus se trouvent submergés par la quantité d'information et de documents disponibles. Les utilisateurs ne sont plus capables d’analyser ou d’appréhender ces informations dans leur globalité. Dans ce contexte, il devient indispensable de proposer de nouvelles méthodes pour extraire et caractériser de manière automatique les informations c...
متن کاملLecture Séquentielle de Documents pour la Classification
RÉSUMÉ. Nous proposons un nouveau modèle de lecture séquentielle permettant la classification automatique de documents textuels. Il est basé sur la modélisation d’un agent qui lit un document phrases après phrases et qui peut à tout moment décider d’associer un document à une ou plusieurs catégories données. L’algorithme proposé se base sur une formalisation de la classification de texte en tan...
متن کاملRecherche d'Information efficace utilisant la sémantique: le focus
RÉSUMÉ. L’indexation sémantique de documents à partir d’ontologies est un domaine qui prend de l’essor, malgré les difficultés d’une indexation automatique ou même semi-automatique, sans parler d’indexation manuelle. Il est possible désormais d’avoir des caractérisations sémantiques de documents textuels ou non textuels basées sur des ontologies. Partant de ce fait, nous avons mis en place un o...
متن کاملUne nouvelle approche pour la classification non supervisée en segmentation d'image
Résumé. La segmentation des images en régions est un problème crucial pour l’analyse et la compréhension des images. Parmi les approches existantes pour résoudre ce problème, la classification non supervisée est fréquemment employée lors d’une première étape pour réaliser un partitionnement de l’espace des intensités des pixels (qu’il s’agisse de niveaux de gris, de couleurs ou de réponses spec...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
عنوان ژورنال:
دوره شماره
صفحات -
تاریخ انتشار 2008